We study the task of learning state representations from potentially high-dimensional observations, with the goal of controlling an unknown partially observable system. We pursue a direct latent model learning approach, where a dynamic model in some latent state space is learned by predicting quantities directly related to planning (e.g., costs) without reconstructing the observations. In particular, we focus on an intuitive cost-driven state representation learning method for solving Linear Quadratic Gaussian (LQG) control, one of the most fundamental partially observable control problems. As our main results, we establish finite-sample guarantees of finding a near-optimal state representation function and a near-optimal controller using the directly learned latent model. To the best of our knowledge, despite various empirical successes, prior to this work it was unclear if such a cost-driven latent model learner enjoys finite-sample guarantees. Our work underscores the value of predicting multi-step costs, an idea that is key to our theory, and notably also an idea that is known to be empirically valuable for learning state representations.
translated by 谷歌翻译
增强学习(RL)在接触式操纵中的经验成功(RL)从基于模型的角度来理解了很多待理解,其中关键困难通常归因于(i)触点模式的爆炸,(ii)僵硬,非平滑接触动力学和由此产生的爆炸 /不连续梯度,以及(iii)计划问题的非转换性。 RL的随机性质通过有效采样和平均接触模式来解决(i)和(ii)。另一方面,基于模型的方法通过分析平滑接触动力学来解决相同的挑战。我们的第一个贡献是建立两种方法的简单系统方法的理论等效性,并在许多复杂示例上提供定性和经验的等效性。为了进一步减轻(II),我们的第二个贡献是凸面的凸面,可区分和准动力的触点动力学表述,这两个方案都可以平滑方案,并且通过实验证明了对接触富含接触的计划非常有效。我们的最终贡献解决了(III),在其中我们表明,当通过平滑度抽取接触模式时,基于经典的运动计划算法在全球计划中可以有效。将我们的方法应用于具有挑战性的接触式操纵任务的集合中,我们证明了基于模型的有效运动计划可以实现与RL相当的结果,而计算却大大较少。视频:https://youtu.be/12ew4xc-vwa
translated by 谷歌翻译
我们提出了一种从基于隐式对象编码器,神经辐射字段(NERFS)和图神经网络的图像观测值中学习组成多对象动力学模型的方法。由于其强大的3D先验,NERF已成为代表场景的流行选择。但是,大多数NERF方法都在单个场景上进行了训练,以全球模型代表整个场景,从而对新型场景进行概括,其中包含不同数量的对象,具有挑战性。取而代之的是,我们提出了一个以对象为中心的自动编码器框架,该框架将场景的多个视图映射到一组分别表示每个对象的潜在向量。潜在矢量参数化可以从中重建场景的单个nerf。基于那些潜在向量,我们在潜在空间中训练图形神经网络动力学模型,以实现动力学预测的组成性。我们方法的一个关键特征是,潜在向量被迫通过NERF解码器编码3D信息,这使我们能够在学习动力学模型中纳入结构先验,从而使长期预测与多个基线相比更加稳定。模拟和现实世界的实验表明,我们的方法可以建模和学习构图场景的动态,包括刚性和可变形对象。视频:https://dannydriess.github.io/compnerfdyn/
translated by 谷歌翻译
通过基于一阶梯度的估计,通过替换零阶梯度估计来替换零阶梯度估计,可以通过估算零阶梯度估计来更快地计算时间。但是,尚不清楚哪些因素决定了两个估计量在复杂景观上的性能,尽管该问题对于可区分的模拟器的实用性至关重要,但涉及长途计划和对物理系统的控制。我们表明,某些物理系统的特征,例如刚度或不连续性,可能会损害一阶估计器的功效,并通过偏置和方差的镜头分析这种现象。我们还提出了一个$ \ alpha $ - 订单梯度估计器,并在[0,1] $中使用$ \ alpha \,它正确利用了精确的梯度将一阶估计值的效率与零级方法的鲁棒性结合在一起。我们在一些数值示例中证明了传统估计器的陷阱以及$ \ alpha $订单估计器的优势。
translated by 谷歌翻译
我们提出了6D(种子)中系列弹性末端效应器的框架,其将空间兼容的元素结合在粘合性感觉中,以掌握和操纵野外的工具。我们的框架将串联弹性的益处推广到6- DOF,同时提供使用粘液触觉感测的控制抽象。我们提出了一种用于粘合性感测的相对姿势估计的算法,以及能够实现与环境的稳定力相互作用的空间混合力力位置控制器。我们展示了我们对需要监管空间力量的工具的效果。视频链接:https://youtu.be/2-yuifspdrk
translated by 谷歌翻译
The COVID-19 pandemic created a deluge of questionable and contradictory scientific claims about drug efficacy -- an "infodemic" with lasting consequences for science and society. In this work, we argue that NLP models can help domain experts distill and understand the literature in this complex, high-stakes area. Our task is to automatically identify contradictory claims about COVID-19 drug efficacy. We frame this as a natural language inference problem and offer a new NLI dataset created by domain experts. The NLI framing allows us to create curricula combining existing datasets and our own. The resulting models are useful investigative tools. We provide a case study of how these models help a domain expert summarize and assess evidence concerning remdisivir and hydroxychloroquine.
translated by 谷歌翻译
英国生物银行标准化表型代码的目的与住院的患者有关,但对于许多在门诊环境中接受治疗的患者缺失但缺失。我们描述了一种表型识别方法,该方法为所有英国生物库参与者施加了表型代码。材料和方法POPDX(基于人群的客观表型通过深度推断)是双线性机器学习框架,用于同时估计1,538个表型代码的概率。我们从英国生物库中提取了392,246个人的表型和健康相关信息,以进行POPDX开发和评估。共有12,803个ICD-10患者的诊断代码被转换为1,538个Phecodes,作为黄金标准标签。对POPDX框架进行了评估,并将其与自动多型识别的其他可用方法进行了比较。结果POPDX可以预测训练中罕见甚至未观察到的表型。我们证明了22种疾病类别的自动多型识别及其在识别与每种表型相关的关键流行病学特征方面的应用。结论POPDX有助于为下游研究提供明确定义的队列。这是一种通用方法,可以应用于具有不同但不完整数据的其他生物库。
translated by 谷歌翻译
th骨海星(COTS)爆发是大屏障礁(GBR)珊瑚损失的主要原因,并且正在进行实质性的监视和控制计划,以将COTS人群管理至生态可持续的水平。在本文中,我们在边缘设备上介绍了基于水下的水下数据收集和策展系统,以进行COTS监视。特别是,我们利用了基于深度学习的对象检测技术的功能,并提出了一种资源有效的COTS检测器,该检测器在边缘设备上执行检测推断,以帮助海上专家在数据收集阶段进行COTS识别。初步结果表明,可以将改善计算效率的几种策略(例如,批处理处理,帧跳过,模型输入大小)组合在一起,以在Edge硬件上运行拟议的检测模型,资源消耗较低,信息损失较低。
translated by 谷歌翻译
荆棘冠的海星(婴儿床)爆发是珊瑚损失的主要原因是巨大的障碍礁(GBR),并且正在进行大量监测和控制计划,以试图管理生态可持续水平的COTS群体。我们释放了GBR上的COTS爆发区域的大规模注释的水下图像数据集,以鼓励机器学习和AI驱动技术的研究,以改善珊瑚礁秤上的COTS群体的检测,监测和管理。该数据集发布并托管在一次竞争中,挑战国际机器学习界,并从这些水下图像中的COTS检测的任务挑战。
translated by 谷歌翻译
虽然最先进的对比自我监督学习(SSL)模型产生与监督对应物竞争的结果,但它们缺乏推断潜在变量的能力。相反,规定的潜在变量(LV)模型能够归因于不确定性,诱导任务特定压缩,并且通常允许更可解释的表示。在这项工作中,我们向大规模对比SSL模型引入LV近似值。我们证明,此添加可提高下游性能(导致96.42%和77.49%的测试在CIFAR10和ImageNet上的前1个微调性能,以及resnet50),并产生可用于解释性的高度压缩表示(588倍降低),分类和回归下游任务。
translated by 谷歌翻译